Rank in Wordlist | Frequency | Word |
---|---|---|
853 | 12463 | азык-төлек |
936 | 11289 | Премьер-министры |
1094 | 9923 | хатын-кыз |
1246 | 8843 | хатын-кызлар |
1518 | 7290 | Татар-информ |
1590 | 6895 | торак-коммуналь |
1771 | 6248 | турыдан-туры |
1937 | 5808 | милли-мәдәни |
2046 | 5511 | ир-ат |
2164 | 5181 | бер-берсенә |
2305 | 4833 | ата-аналар |
2413 | 4643 | елдан-ел |
2774 | 4049 | Санкт-Петербург |
2778 | 4044 | юл-транспорт |
2827 | 3989 | бер-ике |
2906 | 3854 | Премьер-министр |
3089 | 3624 | бер-бер |
3329 | 3343 | бер-берсен |
3351 | 3319 | ата-ана |
3421 | 3248 | әти-әнисе |
Rank in Wordlist | Frequency | Word |
---|---|---|
44417 | 116 | Ростов-на-Дону |
50793 | 95 | кунакханә-сәүдә-күңел |
55849 | 82 | нефть-газ-химия |
62703 | 68 | Би-би-си |
67940 | 60 | Рио-де-Жанейро |
70127 | 57 | И-и-и |
87162 | 40 | Би-Би-Си |
90011 | 38 | Ил-де-Франс |
91709 | 37 | Рио-де-Жанейрода |
96440 | 34 | Зө-Ләй-Лә |
Rank in Wordlist | Frequency | Word |
---|---|---|
201437 | 10 | Нор-па-де-Кале-Пикардия |
226737 | 8 | Аквитания-Лимузен-Пуату-Шарент |
252155 | 7 | Элзас-Шампан-Арден-Лотарингия |
272415 | 6 | Лангедок-Руссильон-Көньяк-Пиреней |
273768 | 6 | Па-де-ла-Луар |
305116 | 5 | Мәскәү-Санкт-Петербург-Мәскәү |
305939 | 5 | Панк-Таб-Надо-Хадуттэ |
328536 | 5 | ха-ха-ха-ха-ха |
336677 | 4 | Plant-for-the-Planet |
336763 | 4 | TAT-ARS-TAN-2011 |
Rank in Wordlist | Frequency | Word |
---|---|---|
201437 | 10 | Нор-па-де-Кале-Пикардия |
328536 | 5 | ха-ха-ха-ха-ха |
340437 | 4 | Алмания-Франция-Тунис-Маҗарстан-Швейцария-Иран-Бөек |
346559 | 4 | Кама-Болгар-Казан-Алабуга-Уфа |
356743 | 4 | Уфа-Сергеевка-Алабуга-Болгар-Казан-Яр |
498859 | 2 | 8-84342)-5-27-31 |
520069 | 2 | Бад-Һомбург-фон-дер-Һөэ |
533932 | 2 | Европа-Россия-Татарстан-Казакъстан-Кытай |
540297 | 2 | Казан-Әтнә-Кушлавыч-Арча-Кырлай |
540926 | 2 | Кама-Болгар-Казан-Алабуга-Өфе |
Some languages allow the formation of longer word by composition using hyphens. Moreover, proper names may contain hyphens. Therefore we look for the most frequent words containing 1, 2, 3 or 4 hyphens.
Usually we find interesting words. But in the case of poor preprocessing there may be unexpected strings resulting from hyphenation etc. Words ending with an hyphen are usually not welcome, too.
For three hyphens:
select w_id-100,freq, word from words where word like "%-%-%-%" limit 10;
3.12.2 Multiwords
3.12.3 (Multi-)Words with dots
3.12.4 Words containing special characters